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摘要 : [目的 /意义 ] 结合 数据 起 源 的 内 容 和 长 期 保存 特点 ,全 面 研究 和 分 析 数 据 起 源 在 长 期 保存 中 的 应 用 ,为 
长 期 保存 系统 组 织 管理 起 源 提供 参考 。[ 方 法 /过 程 ] 分 析 长 期 保存 领域 中 相关 标准 如 OAIS PREMIS 和 TRAC 对 
起 源 的 解释 和 要 求 ,对 比 起 源 在 已 有 的 长 期 保存 系统 中 的 应 用 情况 。[ 结果 /结论 ] 提 出 以 事件 为 核心 的 长 期 保 在 
起 源 管 理 框架 ,总 结 起 源 的 详细 内 容 、 捕 获 方法 、 组 织 方案 存储 封装 策略 和 技术 方案 等 。 
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JE I EC RUNE: 

AS ( provenance , 又 译 为 溯源 或 来 源 ) ,代表 了 数 
字 对 象 的 产生 及 发 展 历 史 。 通 过 记录 起 源 信息 ,人 们 
可 以 了 解数 字 对 象 所 发 生 的 变化 ,以 及 变化 的 地 点 、 原 
因 、 时 间 和 责任 人 等 7W'' (what, where who, when , 
which „why „how ) 信息。 起源 记录 的 内 容 对 于 解决 数据 
的 可 信和 性 、 结 果 可 靠 性 、 数 据 修改 或 分 析 过 程 的 透明 性 
以 及 数据 引用 来 源 等 重要 数据 问题 至 关 重 要 。 

在 长 期 保存 系统 中 组 织 和 管理 起 源 具 有 重要 意 
义 。 长 期 保存 系统 的 首要 目标 是 保证 起 源 的 真实 性 、 
可 理解 性 和 可 访问 性 ,如 果 数 据 失 去 了 真实 性 ,可 理解 
性 和 可 访问 性 也 就 无 从 谈 起 。 真 实 性 有 两 层 含义 :其 
一 是 原始 内 容 没 有 发 生 改变 ;其 二 是 原始 内 容 发 生 了 
合理 的 变化 。 起 源 记录 了 长 期 保存 系统 对 原始 对 象 的 
各 种 操作 ,可 以 提供 真实 性 判断 的 证 据 , 显 示 数 字 发 生 
了 什么 变化 ,对 数字 对 象 产 生 了 什么 影响 ,以 此 证 明 数 
字 对 象 是 否 真实 。 

起 源 研究 从 类 型 上 大 致 分 为 数据 级 起 源 ( 如 数据 
库 起 源 ) 和 过 程 级 起 源 ( 如 工作 流 起 源 )”。 国 外 对 这 
两 类 起 源 有 和 较 多 的 研究 和 实践 *”“。 近 些 年 ,国内 也 
开始 关注 起 源 , 包 括 数据 级 起 源 数 据 理 论 和 实践 ”、 起 
源 技术 综述 “和 表达 模型 分 析 “ 等 。 其 中 以 模型 的 研 
究 居 多 ,如 针对 OPM (Open Provenance Model ) 的 安全 
性 改进 说 .针对 W3C PROV 标准 的 介绍 和 Web 应 
用 ,但 鲜 有 把 过 程 级 起 源 和 特定 领域 相 结合 的 研究 和 


长 期 保存 领域 的 起 源 属于 过 程 级 起 源 ,国外 已 有 
较 多 保存 系统 对 起 源 做 了 研究 和 实践 ,国内 尚 处 于 起 
步 阶段 ” ,研究 和 应 用 较 少 。 在 此 背景 下 ,本文 首先 分 
析 相 关 标 准 对 起 源 的 要 求 ,然后 对 比 起 源 在 长 期 保存 
系统 中 的 应 用 ,最 后 在 此 基础 上 提出 以 事件 为 核心 的 
长 期 保存 起 源 管理 框架 ,并 全 面 地 分 析 该 框架 涉及 的 
关键 问题 ,包括 功能 流程 ,起源 的 内 容 ` 组 织 方案 .存储 
策略 和 技术 方案 等 内 容 , 为 起 源 技术 在 长 期 保存 系统 
中 的 理论 研究 和 实践 应 用 提供 借鉴 和 参考 。 


2 ”相关 标准 对 起 源 的 要 求 和 描述 


2.1 OAIS 的 要 求 与 描述 

OAIS( Open Archival Information System ) 是 长 期 保 
存 的 基础 框架 ,为 长 期 保存 提供 了 标准 、 规 范 化 的 保存 
系统 功能 流程 和 信息 对 象 模型 。OAIS 对 起 源 的 定义 、 
内 容 和 作用 等 做 了 简要 陈述 。 在 OAIS 中 ,起 源 被 定义 
为 内 容 信息 的 历史 ,展示 了 内 容 信息 产生 的 由 来 、 自 产 
生 以 来 所 发 生 的 变化 和 管理 过 程 中 保管 责任 方 的 变 
动 ”。 以 数字 图 书馆 集合 为 例 , 其 起 源 包 含 以 下 内 
容 :中 非 原始 数字 内 容 : 数 字 过 程 和 主要 版 本 链接 。@ 
数字 出 版 物 : 原 始 版 本 链接 、 保 存 过 程 的 元 数据 .更 早 
版 本 的 链接 改变 历史 和 信息 对 象 描述 。 

不 同类 型 的 数字 对 象 的 起 源 记录 的 内 容 类 型 并 不 
相同 ,如 对 于 空间 科学 数据 ,起 源 包括 仪器 信息 、 主 要 
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研究 者 、 软 件 接口 规范 信息 等 ;对 于 软件 包 , 起 源 包 括 
修改 历史 ,注册 信息 和 版 权 等 内 容 。 

在 长 期 保存 系统 中 ,原始 数据 以 信息 包 为 基本 单位 
进行 管理 ,包括 SIP( submission information package) , AIP 
(archival information package) 和 DIP( dissemination infor- 
mation package)3 种 类 型 。 每 个 信息 包 由 内 容 信息 (con- 
tent object) 和 保存 描述 信息 (preservation description in- 
formation,PDI) 组 成 。 内 容 信息 是 保存 的 原始 目标 ,包含 
数字 对 象 ( data object) 和 表征 信息 (repretation informa- 
tion) ,PDI 负责 解释 内 容 信息 。 起 源 是 PDI 的 重要 组 成 
部 分 ,记录 了 数字 对 象 的 变化 ,为 真实 性 判断 、 可 信赖 认 
证 \ 信 息 审计 、 权 限 判 断 \ 版 本 变迁 等 提供 重要 依据 。 

起 源 也 可 以 被 看 作 一 种 元 数据 ,但 和 其 他 元 数据 
(如 题名 ) 不 同 的 是 起 源 信息 是 动态 产生 的 。 起 源 的 
产生 贯穿 了 数字 对 象 的 整个 生命 周期 :内 容 信息 被 摄 
入 保存 系统 前 ,起源 由 内 容 生产 者 提 供给 长 期 保存 系 
统 ;内 容 信息 被 摄 入 保存 系统 后 ,起 源 被 保存 系统 不 断 
地 捕获 ,并 更 新 到 相关 的 模块 。 

2.2 PREMIS 的 要 求 与 描述 

PREMIS( Preservation Metadata 
Strategies) 是 支持 数字 保存 处 理 过 程 的 信息 框架 ,包括 
PREMIS 数据 字典 ”和 PREMIS 框架 ”两 大 部 分 。 相 
对 OAIS, PREMIS 对 起 源 做 了 更 加 详细 的 陈述 ,并 定义 
了 可 用 来 描述 起 源 的 保存 元 数据 语义 单元 。 

PREMIS 数据 字典 指出 ,起源 主要 描述 了 责任 人 对 
数字 对 象 保 管 和 管理 的 责任 \ 发 生 在 数字 对 象 生命 周 
期 内 的 关键 事件 ,以 及 其 他 与 数字 对 象 的 创建 ,管理 和 
保存 有 关 的 信息 。 记 录 起 源 是 保证 数字 对 象 可 信赖 的 
重要 手段 ,可 以 从 技术 层面 为 真实 性 管理 提供 支持 。 
所 以 在 长 期 保存 系统 的 配置 过 程 中 应 特别 注意 起 源 的 
管理 ,并 从 数字 对 象 完整 生命 周期 角度 有 效 地 组 织 
维护 起 源 。 

PPREMIS 框架 对 起 源 作 了 更 丰富 和 深刻 的 阐释 。 
认为 起 源 主要 解释 了 内 容 数据 对 象 从 被 创建 开始 到 其 
当前 状态 过 程 中 随时 间 迁 移 而 发 生 的 变化 。 除 了 记录 
内 容 对 象 的 “时 间 表 "之 外 ,起 源 还 是 基于 事件 的 元 数 
据 。 换 句 话说 ,数字 对 象 相关 状态 的 演化 是 被 重要 事 
件 驱动 的 ,例如 对 象 的 创建 .所 有 权 的 转移 、 被 援 人 存 
档 系统 的 过 程 或 对 象 的 格式 迁移 都 是 由 事件 引起 的 。 
如 图 1 所 示 , 起源 可 以 分 为 来 源 (origin)、 摄 入 前 期 
( pre-ingest) . 摄 和 人 过 程 (ingest) 存档 过 程 (archival re- 
tention ) 和 权限 管理 (rights management)5 种 类 型 ,每 种 
类 型 的 内 容 都 记录 为 事件 。 所 以 记录 起 源 就 可 以 转换 


Implementation 


为 记录 这 些 特 定 事件 的 细节 ,以 及 它们 对 内 容 数 据 对 


象 的 影响 。 


archival retention 


rights management 


图 1 PREMIS 框架 定义 的 起 源 事 件 模型 号 1 


PREMIS 数据 字典 定义 了 5 种 基本 实体 一 一 语义 
实体 (intellctual entity) XF (object) ,事件 (event) 4È 
理 (agent) 和 权限 声明 (rights statement) 。 根 据 PREMIS 
框架 对 起 源 的 解释 , 可 以 使 用 Event 包含 的 语义 单元 
来 记录 起 源 。 不 仅 如 此 ,从 OAI 和 PREMIS 给 出 的 定 
义 来 看 ,起 源 还 应 该 包括 操作 过 程 中 涉及 的 对 象 和 责 
任 者 ,如 表 1 所 示 : 

R1 描述 起 源 的 PREMIS 语义 单元 


Event 


2.1 eventlIdentifier 
2. 1. 1 eventldentifierType 
2.1.2 eventldentifierValue 
2.2 eventType 
2.3 eventDateTime 
2.4 eventDetail 
2.5 eventOutcomelInformation 
2.5.1 eventOutcome 
2.5.2 eventOutcomeDetail 
2.5.2.1 eventOutcomeDetailNote 
2.5.2.2 eventOutcomeDetailExtension 
2.6 linkingAgentlIdentifier 
2.6.1 linkingAgentldentifierType 
2.6.2 linkingAgentldentifierValue 
2.6.3 linkingAgentRole 
2.7 linkingObjectldentifier 
2.7.1 linkingObjectldentifierType 
2.7.2 linkingObjectldentifierValue 
2.7.3 linkingObjectRole 
Object 
1. IOrelationship 
1. 10.3 relatedObjectIdentification 
1.10.3. 1 relatedObjectIdentifierType 
1. 10.3.2 relatedObjectIdentifierValue 
1. 10.3.3 relatedObjectSequence 
1. 10.4 relatedEventlIdentification 
1. 10. 4. 1 relatedEventIdentifierType 
1. 10. 4.2 relatedEventIdentifierValue 
1. 10. 4.3 relatedEventSequence 
1. 11 linkingEventIdentifier 
1. 1. I linkingEventldentifierType 
1. 11.2 linkingEventIdentifierValueAgent 
3. 1 agentldentifier 
3. 1. 1 agentlIdentifierType 
3. 1.2 agentldentifierValue 
3.2 agentName 
3.3 agentType 
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其 中 ,eventType 是 受 控 词 ,是 起 源 事件 的 重要 内 
4t ,确定 哪些 类 型 的 事件 需要 记录 。 哪 些 不 要 记录 ,是 
起 源 管理 的 重点 ,每 个 仓储 都 应 该 定义 自己 的 event- 
Type 值 。PREMIS 提供 了 一 个 事件 类 型 清单 供 参考 : 
(Dereation( 新 对 象 创 建 ) ; G)deacession ( 从 仓储 目录 中 
移 除 对 象 的 过 程 ) ; @)decompressionn ( 逆 压 缩 ) ; 4 de- 
cryption ( 加密 数据 转换 为 明文 ) ;@deletion( 从 仓储 存 
储 中 移 除 一 个 对 象 ) ;OOdigital signature validation ( 确定 
解密 的 数字 签名 是 否 匹配 期 待 值 ) ;CDdissemination( 从 
仓储 存储 中 检索 一 个 对 象 , 以 为 用 户 访问 );@fixity 
check( 验 证 对 象 的 在 给 定时 期 没有 发 生变 化 ) ;@in- 
gestion( 增加 对 象 到 保存 仓储 的 过 程 ) ; message digest 
calculation( 摄 入 时 生成 原始 数据 的 校 验 和 过 程 ) ; 0D 
migration ( 对 象 创建 新 版 本 的 转换 ) ; normalization ( 创 
建 更 有 利于 保存 新 版 对 象 的 转换 ) ;3replication( 创建 
对 象 副本 的 过 程 ,与 原 数字 对 象 比特 流 完 全 一 致 ) ; 09 
validation ( 用 标准 对 比 一 个 对 象 的 过 程 , 没 有 任何 不 符 
合 规范 ) ;@virus check (检查 文件 是 否 收 到 恶意 程序 
攻击 ) 。 
2.3 可 信赖 仓储 认证 标准 的 要 求 与 描述 

可 信赖 仓储 认证 标准 (Trustworthy Repositories Au- 
dit & Certification , TRAC) E} IS01636 , 为 数字 仓储 库 的 
真实 性 的 审核 和 认证 提供 基础 框架 ,是 数字 仓储 库 真 
实 性 审查 的 标准 规范 。 

TRAC 中 ,对 起 源 的 描述 主要 出 现在 第 4 章 和 第 5 
3E ,解释 了 起 源 发 挥 的 作用 、 必 要 性 和 维护 要 求 等 。 

起 源 提供 复制 和 移动 数据 的 过 程 信息 , 且 必 须 被 
不 断 维护 和 升级 ,可 以 帮助 确定 责任 人 、 数 字 对 象 副本 
的 数量 和 位 置 。 当 SIP 与 AIP ( Archive Information 
Package) 不 一 致 时 ,仓储 须根 据 书面 规程 进行 处 理 , 并 
且 需 要 指明 不 一 致 的 原因 ,起源 可 以 发 挥 重要 的 作用 。 
PDI 通过 提供 起 源 以 及 与 其 他 信息 之 间 的 关联 ,确保 
内 容 信 息 能 够 被 理解 ,这 也 是 理解 内 容 信 息 的 关键 元 
素 。 

根据 协议 ,在 数据 对 象 处 理 过 程 中 ,除非 协议 另 有 
说 明 ,仓储 可 通过 文档 格式 来 判断 保存 对 象 的 相关 属 
性 。 在 这 种 情况 下 ,仓储 需要 对 格式 相同 的 保存 对 象 
的 起 源 进行 统一 描述 。 为 了 使 仓储 拥有 一 套 能 够 支持 
长 期 保存 的 AIP 定义 ,必须 能 够 识别 和 解析 AIP 中 的 
必要 组 件 。 

因此 ,保存 仓储 需要 有 文档 清晰 地 展示 诸如 表征 
言 息 和 起 源 之 类 的 AP 组 件 , 使 之 能 够 被 管理 和 及 时 
更 新 。 同 时 还 要 保存 起 源 和 AIP 的 关键 信息 如 内 容 信 
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E .表征 信 息 和 其 他 PDI 的 关联 ,并 对 它们 之 间 的 关联 
进行 一 致 的 定义 。 此 外 ,为 有 效 识别 和 解析 起 源 , 仓 储 
还 需要 拥有 一 套 机 制 来 正确 验证 所 有 内 容 生 产 方 的 身 
份 信息 (起 源 信息 的 一 部 分 ) ,支持 长 期 保存 的 ATP 定 
义 , 并 根据 实际 情况 随 着 时 间 扩 展 起 源 。 


3 起 源 在 长 期 保存 中 的 应 用 现状 
3.1 DAITSS 

DAITSS' ”是 由 佛罗里达 图 书馆 自动 化 中 心 为 佛 
罗 里 达 数 字 保存 系统 (Florida Digital Archive, FDA ) Jf 
发 的 一 个 数字 保存 仓储 系统 。 它 利用 METS 格式 ,把 
起 源 记录 在 管理 元 数据 amdSec 的 digiprovMD 元 素 里 。 
对 于 起 源 ,DAITSS 主要 以 事件 的 方式 来 记录 ,并 把 事 
件 分 为 包 级 和 文件 级 两 个 级 别 。 包 级 事件 包括 sub- 
mit ingest , disseminate , refresh 和 withdraw ; 文件 级 事件 
包括 virus check , describe, xml resolution, normalize 和 
migrate。 一 个 AP 的 METS 文件 封装 了 3 个 级 别 的 管 
理 元 数据 ,分 别 包含 不 同 层次 的 起 源 :中 第 一 级 起 源 记 
录 了 协议 信息 ;@) 第 二 级 起 源 记 录 了 PREMIS 提交 、 摄 
入、 分 发 .更 新 和 撤销 事件 ; 包 第 三 级 起 源 记 录 了 
DAITSS 服务 为 每 个 文件 执行 的 PREMIS 事件 ,如 文件 
转换 ,病毒 检查 等 。 

3.2 CASPAR 

CASPAR( Cultural, Artistic and Scientific Knowledge 
for Preservation, Access and Retrieval) "^ fi f] IBM 开发 
的 PDS( Preservation DataStore ) Lis] 来 管理 起 源 ,主要 用 
于 权限 管理 .知识 库 更 新 跟踪 和 真实 性 管理 。 

TE PDS 中 ,起 源 被 当 作 独立 的 信息 对 象 处 理 ,拥有 
自己 的 表征 信息 。 一 条 起 源 记录 就 是 一 个 起 源 事件 。 
起 源 事件 可 分 为 内 部 事件 和 外 部 事件 ,内 部 事件 可 以 
被 PDS 自动 捕获 ,外 部 事件 则 需要 通过 接口 人 工 添加 。 
起 源 数 据 的 概念 结构 见 图 2, 起 源 数据 由 多 个 起 源 记 
录 组 成 ,每 条 起 源 记 录 包 含 唯一 标示 符 (record ID), 
PDS 内 部 事件 标志 (PDS internal) ,事件 内 容 (content ) 
和 表征 信息 (repInfo)4 部 分 。 一 个 起 源 事件 可 能 指向 
单个 AIP( 如 创建 ) ,或 者 一 组 AIP( 如 包含 某 种 数据 的 
所 有 AIP 被 转换 成 某 种 新 的 格式 ) ,或 者 整个 系统 (如 
所 有 存档 的 所 有 者 发 生 改 变 ) 。 

3.3 APARSEN 

APARSEN ( Alliance Permanent Access to the Re- 
cords of Science in Europe Network) ^ 把 起 源 作 为 真实 
性 管理 的 主要 证 据 来 收集 ,并 为 此 撰写 一 份 详细 的 起 
源 和 真实 性 配置 指导 文档 ,以 实证 其 可 行 性 。 数 字 
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图 2 CASPAR FERREA 


资源 的 生命 周期 被 分 为 摄 和 人 前 和 保存 期 两 个 阶段 ,并 
通过 事件 记录 起 源 。 由 于 长 期 保存 系统 的 复杂 性 ， 
APARSEN 把 核心 事件 进行 整理 分 类 。 每 个 阶段 包括 
如 下 事件 类 型 :中 摄 入 前 一 一 捕获 ,整合 ,聚合 ,删除 ， 
迁移 ,转换 ,提交 。@ 保 存 期 一 一 捕获 ,保存 一 摄 入 , 保 
存 一 聚合 , 保存 一 抽取 , 保存 一 迁移 , 保存 一 删除 , 保 
存 一 转移 。 

这 些 事 件 可 用 以 下 元 素 进行 描述 :事件 的 描述 、 代 
理 . 输 入 、 输 出 以 及 可 信和 性 证 据 记 录 ( authenticity evi- 
dence record , AER) 。AER 是 能 够 作为 真实 性 判断 依 
据 的 起 源 信息 。 

APARSEN 使 用 CRMdig “模型 描述 起 源 ,并 对 
CRM op 和 OPM 做 出 了 映射 ,增加 其 交互 性 。CRM, 是 
一 个 以 事件 为 核心 来 描述 起 源 的 本 体 模型 ,重点 突出 
了 对 物理 对 象 的 起 源 的 描述 ,对 科学 研究 产生 数字 化 
数据 的 物理 环境 有 丰富 的 描述 。 

3.4 SCAPE 

SCAPE ( Scalable Preservation Environments ) [2 把 
起 源 应 用 到 了 SCAPE 保存 规划 ,数据 出 版 平台 和 知识 
库 模块 。SCAPE 使 用 Taverna 定义 和 处 理 保存 任务 ， 
并 利用 Taverna 自 带 的 起 源 插 件 Workbench 2.4 输出 
Taverna 工作 流 中 的 起 源 。Taverna 拥有 自己 的 起 源 本 
体 tavernaprov ,该 本 体 扩 展 了 本 体 PROV -O 和 wf- 
prov, 目 的 是 描述 一 般 模型 无 法 表示 的 Taverna 行为 ， 
如 错误 文档 和 迭代。 与 DATISS 一 样 ,SCAPE 信息 包 
也 使 用 了 METS 文件 的 digiprovMD 元 素 封装 起 源 ” , 
起 源 由 PREMIS 事件 和 代理 组 成 ,并 利用 premis: ob- 
ject,premis :event 和 premis : agent 相关 语义 单元 描述 起 
3.5 其 他 相关 项 目 

此 外 ,长 期 保存 的 其 他 许多 项 目 和 系统 也 都 涉及 
起 源 的 收集 和 管理 。iRODS (integrated Rule -Oriented 
Data System) "设计 了 分 布 式 的 起 源 信息 系统 ,提供 


多 结 点 的 起 源 记录 (“P-Services”) 和 起 源 查 询 ( Q-Serv- 
ices) 服务 。 记 录 的 起 源 不 仅 包 括 内 容 数据 和 文件 的 变 
化 历史 ,而 且 包括 用 户 对 文件 访问 、 处 理 数据 的 规则 版 
本 变化 和 iRODS 的 系统 信息 等 。PrestoPrime ”通过 事 
件 和 生产 者 或 生产 者 代理 来 记录 起 源 ,事件 被 划分 为 
存 缴 前 事件 和 存 缴 事件 ,后 者 包括 新 版 本 产生 和 有 效 
性 检查 ,参考 PREMIS 字典 ,使 用 DNX 和 OPM 两 个 模 
型 来 记录 起 源 。Data Conservancy ^ 把 起 源 划分 为 起 
源 服务 和 世系 服务 两 部 分 ,前 者 记录 了 发 生 在 系统 内 
的 事件 ,后 者 记录 了 数据 对 象 之 间 的 关系 ,并 通过 HT- 
TP 调用 Linage API 和 Event API 两 个 Web 接口 来 调用 
上 述 服务 。 
3.6 ”起 源 应 用 现状 总 结 

起 源 的 管理 关键 在 于 设计 起 源 组 织 模型 和 记录 流 
程 。 在 对 起 源 的 组 织 方面 ,虽然 不 同 保存 系统 使 用 了 
不 同 组 织 模型 :如 OPM , PREMIS, CRM,,, 或 自 定义 模 
型 ,但 是 却 不 约 而 同 地 以 事件 为 核心 来 记录 起 源 , 这 一 
点 和 了 PREMIS 是 一 致 的 。 除 事件 之 外 ,还 记录 了 生产 
者 和 对 象 关系 这 些 重要 信息 。 在 对 起 源 进行 管理 时 ， 
把 起 源 作为 元 数据 和 内 容 信息 一 起 保存 ,并 按照 一 定 
的 封装 格式 (如 METS) 进行 组 织 。 在 起 源 组 织 管理 方 
面 ,与 技术 元 数据 以 及 描述 元 数据 不 同 ,起源 需要 不 断 
地 更 新 ,一 条 起 源 一 般 需 要 经 过 捕获 .组 织 .封装 存储 
等 加 工 过 程 ,并 最 终 提供 访问 查询 ,或 者 被 保存 系统 的 
其 他 模块 调用 。 


4 基于 OAIS 框架 的 起 源 研究 与 分 析 


起 源 是 PDI 的 重要 组 成 部 分 ,也 是 长 期 保存 实践 
需要 记录 的 重要 内 容 , 但 是 到 目前 为 止 ,还 缺乏 对 其 综 
合 、 全 面 的 分 析 。 虽 然 OAIS 和 PREMIS 等 给 出 了 概念 
定义 和 解释 ,但 是 具体 记录 什么 内 容 、 相 关 技 术 、 起 源 
管理 策略 等 这 些 长 期 保存 社区 关心 的 问题 并 无 明确 的 
说 明 ,其 他 项 目 也 是 针对 自己 项 目的 特点 加 以 记录 ,还 
没有 一 个 综合 性 的 完整 框架 能 为 长 期 保存 提供 参考 。 
本 文 将 基于 整个 保存 周期 的 角度 对 起 源 的 内 容 、 捕 获 、 
存储 和 封装 进行 全 面 的 分 析 。 

4.1 以 事件 为 核心 的 起 源 信息 管理 框架 与 流程 
基于 对 相关 标准 对 起 源 的 解释 和 以 上 项 目 分 析 ， 
本 文 归 纳 并 设计 以 事件 为 核心 的 起 源 信息 管理 框架 。 
该 框架 是 一 个 基于 OAIS 具有 普 适 性 的 长 期 保存 起 源 
管理 框架 。 如 图 3 所 示 ,中 心 部 分 是 起 源 的 管理 模块 ， 
"ELA JE OAIS 的 功能 模块 中 ,动态 地 监测 摄 入 、 归 档 
存储 、 数 据 管理 \ 保 存 规 划 和 业务 管理 各 个 流程 的 事 
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件 。 起 源 管理 模块 根据 预先 配置 好 的 事件 类 型 ,在 整 
个 保存 生命 周期 内 捕获 起 源 保存 对 象 的 起 源 事 件 ,并 
按照 相应 事件 起 源 模型 组 织 成 规范 的 起 源 信息 ,被单 
独 或 者 和 其 他 元 数据 保存 在 一 起 ,以 达到 应 用 的 目的 。 
这 个 起 源 管理 的 过 程 是 循环 进行 的 ,所 以 随 着 时 间 的 
推移 ,会 不 断 地 产生 新 的 起 源 信息 o 

如 图 3 所 示 , 以 事件 为 核心 的 起 源 的 管理 框架 共 
涉及 了 4 个 基本 流程 模块 , 即 捕获 、 组 织 \ 存 储 封装 和 
访问 ,其 中 捕获 组 织 以 及 存储 封装 是 重点 。 


信息 包 接收 | 解码 | 
密 


| ET l 


长 TT | 生成 检验 和 格式 转换 | m | seme | 


i 介质 迁移 


事件 捕获 
pee] 2 M LS NETS T 
à v ^ 理 

不 变性 验证 保存 周期 


访问 


图 3 长 期 保存 的 起 源 管理 框架 


捕获 指 的 是 根据 事先 设 定好 的 事件 类 型 ,监控 保 
存 系统 的 相关 内 容 , 一 旦 事件 发 生 ,就 将 事件 和 必要 信 
息 记录 下 来 ,并 通知 组 织 模块 。 组 织 模块 则 按照 设计 
好 的 的 起 源 模型 和 元 素 ,把 捕获 传 来 的 内 容 记 录 为 规 
范 的 起 源 信息 。 存 储 封装 则 负责 将 起 源 信息 存储 到 相 
关 的 信息 包 文 件 或 者 数据 库 中 ,并 对 起 源 文件 按照 一 
定 的 格式 封装 保持 其 与 数字 对 象 之 间 的 关联 。 访 问 模 
块 主要 提供 用 户 查看 和 下 载 起 源 信 息 功能 ,或 提供 给 
长 期 保存 系统 中 的 其 他 保存 模块 (如 真实 性 管理 ) 使 
用 。 
4.2 起 源 的 内 容 分 析 

虽然 OAIS 和 PREMIS 对 起 源 作 了 解释 ,但 是 对 有 具 
体 记 录 什 么 ,没有 详细 说 明 。 在 长 期 保存 系统 中 ,以 事 
件 为 核心 的 起 源 主 要 记录 了 以 下 相关 内 容 : 
4.2.1 发 生 在 数字 对 象 上 的 事件 ” 即 对 数字 对 象 的 
操作 ,是 起 源 的 核心 。 事 件 内 容 包括 事件 标识 符 .事件 
发 生 时 间 .事件 类 型 .事件 细节 事件 结果 和 事件 使 用 
的 设备 等 。 
4.2.2. 关联 的 数字 对 象 ” 即 事件 操作 对 象 ,包括 输入 
对 象 和 输出 对 象 。 应 该 完整 保存 事件 涉及 到 的 数字 对 
象 , 通 过 在 事件 中 引用 数字 对 象 的 标识 符 将 二 者 关联 
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起 来 ,但 不 包含 数字 对 象 的 描述 元 数据 。 
4.2.3 相关 代理 ”狭义 的 代理 主要 指 操作 人 ,长 期 保 
存 系统 有 责任 记录 相关 责任 人 在 事件 中 发 挥 的 作用 ， 
以 判断 这 些 操 作 是 否 合法 。 更 广义 的 代理 还 包括 组 
织 . 个 人 或 者 软件 产品 等 。 
4.2.4 ”对 象 之 间 的 关系 ” 即 不 同 版 本 对 象 之 间 的 关 
联 。 对 象 在 被 提交 到 保存 系统 后 ,会 有 多 个 副本 或 者 
不 同 格式 的 版 本 。 在 向 用 户 发 送 DIP 时 ,需要 对 其 加 
以 说 明 ,原始 版 本 是 否 发 生变 化 ,如 果 变 化 ,提供 现存 
版 本 ,并 加 以 说 明 。 

其 中 ,起 源 事件 是 起 源 核心 ,贯穿 
了 从 摄 和 人 开始 至 对 象 消亡 的 整个 长 期 
保存 过 程 。 笔 者 参考 PREMIS ,从 对 象 


v | 的 创建 ,修改 和 删除 以 及 验证 4 个 角 
A A 度 , 列 出 了 如 图 3 所 示 事件 :信息 包 接 
w | 收 .压缩 . 道 压缩 .生成 校 验 和 .格式 转 


换 、 解 码 、 加 密 、 副 本 制作 、 版 权 登 记 、 
介质 迁移 、 系 统 错 误 、 不 变形 验证 、 数 
据 库 错误 ,版 权 更 新 \ 保 存 规 划 、 查 询 
和 访问 登记 。 
4.3 起 源 模 型 的 应 用 

描述 起 源 的 模型 较 多 ,典型 的 有 PROV -DM ”、 
OPM 和 Provenir。 一 些 元 数据 方案 .本 体 词 汇 等 也 提 
供 了 表达 Provence 的 术语 ,如 DC 元 数据 、VolD 词汇 和 
Provence Vocabulary ,国内 均 有 相关 研究 “ 。 虽 然 不 同 
模型 对 起 源 的 元 素 定 义 差 异 较 大 ,但 对 起 源 的 基本 元 
素 的 定义 却 基本 是 一 致 的 , 即 可 识别 的 对 象 、 处 理 对 象 
的 过 程 和 涉及 到 的 责任 方 。 

在 长 期 保存 领域 中 ,起 源 的 组 织 方 式 经 历 了 这 样 
的 变化 。 较 早 的 做 法 ,如 英国 国家 归档 中 心 ( The. Na- 
tional Archives, TNA) 5 自 定 义 元 数据 ,把 保管 历史 、 
保管 人 、 保 存 历史 事件 等 字段 映射 为 Provenance ,起 
源 分 散在 多 个 不 同 的 表 结 构 中 ,不 利于 整合 。 后 来 
较为 通用 的 做 法 是 直接 使 用 PREMIS 事件 实体 作为 
起 源 ,例如 DAITSS 和 大 英 图 书馆 的 数字 图 书馆 产 期 
保存 项 目 。 同 期 ,CASPAR 项 目 则 使 用 CRM, 来 组 织 
起 源 。 为 了 增强 起 源 的 交互 性 和 表述 能 力 , Pr- 
stoPrime 开始 使 用 通用 模型 OPM 和 PREMIS 两 种 方 
式 采 集 不 同 的 起 源 。 近 期 ,SCAPE 则 依赖 Taverna 的 
起 源 插件 ” ,使 用 扩展 的 W3C 标准 PROV 模型 记录 
起 源 。 由 此 也 看 出 ,长 期 保存 社区 对 起 源 信息 的 日 
益 重 视 , 在 组 织 起 源 方面 ,语义 和 结构 越 来 越 丰 富 ， 
交互 性 和 通用 性 越 来 越 强 。 
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4.4 起 源 的 捕获 方法 和 工具 

起 源 的 捕获 方法 主要 有 注释 和 逆 置 5 。 注 释 法 实 
施 比较 简单 ,只 需要 记录 下 与 数据 相关 的 处 理 信 息 即 
可 。 工作 流 起 源 管理 系统 一 般 都 是 采取 注释 方式 。 首 
置 法 认为 在 一 定 的 限制 条 件 下 ,可 以 通过 分 析 数 据 库 
操作 语句 得 出 任意 粒度 的 起 源 。 在 长 期 保存 系统 中 ， 
第 采用 第 一 种 方法 来 记录 起 源 ,通过 多 种 途径 实现 : 

(1) 在 系统 内 部 编写 独立 函数 模块 .接口 或 组 件 。 
如 CASPAR 项 目的 PDS, 它 由 IBM 开发 ,能 够 感知 所 有 
发 生 在 PDS 内 的 事件 并 记录 为 起 源 ,同时 提供 方法 使 
用 户 可 以 记录 PDS 无 法 感应 的 外 部 事件 。 

(2) 在 系统 内 能 入 起 源 捕 获 插 件 。 如 SCAPE 使 用 
了 Taverna 工作 流 软件 ,执行 转换 迁移、 副本 制作 等 任 
务 ,抽取 出 工作 流 中 的 起 源 。 此 类 插件 一 般 使 用 通用 
起 源 模型 组 织 起 源 ,例如 W3C 的 PROV 和 OPM 等 。 
此 外 ,其 他 大 多 数 的 工作 流 系统 ,如 VisTrails, REDUX 
和 VDS 都 集成 了 起 源 捕获 的 功能 ,通过 集成 这 些 工作 
流 软件 ,利用 其 提供 的 组 块 或 插件 有 效 捕 提 系统 内 部 
的 起 源 信息 。 

(3) 使 用 元 数据 工具 抽取 起 源 信 息 , 如 JHOVE, 
DROID 等 。 这 类 软件 可 以 记录 一 部 分 起 源 ,不 能 追踪 
完整 的 起 源 , 这 是 目前 捕获 起 源 的 一 种 常见 方式 。 另 
外 ,也 有 专门 针对 起 源 的 元 数据 抽取 工具 ,例如 由 Ex- 
Libris 开发 的 商业 软件 , 它 可 以 追踪 到 数字 对 象 的 改 
变 历史 ,并 保存 为 PREMIS 事件 。 

(4) 集成 已 有 的 起 源 引擎 到 保存 系统 来 管理 起 
源 。 如 iRODS 在 系统 中 集成 了 开源 起 源 管 理 引擎 PA- 
SOA ,通过 基于 Web 服务 的 接口 实现 对 起 源 的 管理 。 

遗憾 的 是 ,目前 还 没有 专门 针对 长 期 保存 系统 的 
起 源 捕捉 插件 或 工具 包 。 虽 然 长 期 保存 系统 各 不 相 
[n] ,但 是 大 多 遵守 OAS 参考 模型 流程 模块 和 信息 对 象 
模型 ,在 此 共同 的 基础 上 ,或 可 以 开发 具有 以 下 特点 的 
开源 工具 包 或 插件 :中 能 够 使 用 XML 或 者 数据 库 等 方 
式 灵 活 地 配置 和 更 新 起 源 事件 类 型 列表 。@ 当 起 源 事 
件 库 中 的 事件 被 触发 时 ,相应 模块 能 捕捉 到 事件 并 记 
录 下 来 。@ 从 捕获 的 事件 中 抽取 出 起 源 保存 到 数据 库 
表 或 文件 中 。 

4.5 起 源 的 存储 

存储 起 源 有 两 种 策略 :一 种 方式 是 将 起 源 和 内 容 
对 象 以 及 其 他 PDI 信息 一 起 保存 。 在 METS 文件 中 ， 
起 源 信 息 和 版 权 信息 被 保存 在 管理 元 数据 区 域 ,这 种 
混合 存储 的 方法 ,优点 是 易于 维护 起 源 的 完整 性 ,缺点 
是 难于 发 布 和 检索 。 男 一 种 方式 是 将 所 有 的 起 源 单独 


存储 到 一 个 数据 库 或 者 文件 中 。DataONE ”把 工作 流 
起 源 存储 在 Mysql 和 图 数据 库 构 建 的 起 源 仓储 中 , 目 
前 还 未 和 DataONE 的 保存 仓储 融合 在 一 起 。 这 种 方式 
便于 快速 查询 和 可 视 化 呈现 起 源 ,缺点 是 维护 困难 , 当 
数据 被 修改 时 需要 考虑 起 源 版 本 变更 等 问题 。 

从 存储 的 格式 方面 来 看 ,一 种 是 采用 文件 方式 ,如 
XML,RDF fil OWL 语言 等 。XML 是 信息 交换 的 主要 
格式 , 易 兼 容 现 有 长 期 保存 系统 的 元 数据 保存 规范 格 
式 。 随 着 关联 数据 和 本 体 的 发 展 ,一 些 项 目 尝试 使 用 
语义 化 方式 如 RDF ,并 在 此 基础 上 做 出 推理 和 查询 。 
目前 封装 起 源 文件 的 格式 有 很 多 ,被 调研 的 项 目 中 党 
用 到 的 通用 封装 格式 有 METS ”和 XFDU?" 两 种 。 
METS 应 用 最 为 广泛 ,DAITSS .UK 期 刊 保存 和 SCAPE 
等 项 目 都 使 用 了 这 种 封装 格式 ,把 起 源 封装 在 管理 元 
数据 的 < digprovMD > «/ digprovMD > 标签 里 。CAS- 
PAR 使 用 XFDU 封装 起 源 ” , 它 通 过 两 种 方式 把 起 源 
封装 在 metadataSection 位 置 ,第 一 种 在 XFDU 的 XML 
文件 中 直接 写 和 起源 ;第 二 种 通过 URL 链接 指向 外 部 
的 起 源 文件 。 

除了 文件 方式 之 外 ,有 的 项 目 还 使 用 数据 库 表 来 
存储 起 源 ,如 关系 数据 库 MySQL 和 Neo4j ,这 种 方式 查 
询 效率 较 高 ,便于 快速 获取 起 源 。 

随 着 起 源 的 累积 , 其 容量 可 能 会 超过 数据 本 映 。 
实践 过 程 中 ,可 以 把 两 种 存储 策略 、 多 种 格式 相 结 合 ， 
把 一 部 分 起 源 ,如 不 常用 或 更 新 频率 低 的 起 源 , 放 在 封 
装 文件 或 者 通过 链接 指向 单独 的 文件 ,对 于 经 常 使 用 
或 更 新 频率 较 高 的 起 源 ,直接 存储 在 数据 库 表 中 ,支持 
快速 访问 和 查询 。 


5 总 结 与 展望 


以 上 对 长 期 保存 领域 的 数字 对 象 的 起 源 做 了 比较 
全 面 而 深入 的 分 析 , 但 由 于 实践 过 程 中 的 复杂 环境 和 
多 样 化 的 应 用 需求 ,还 有 一 些 问题 需要 深入 考虑 。 

起 源 包 括 的 范围 十 分 广泛 ,并且 与 PDI 的 其 他 部 
分 ,如 情境 信息 有 所 交叉 ,所 以 在 在 设计 长 期 保存 系统 
中 起 源 的 记录 时 ,应 该 给 予 明确 的 界定 ,以 免 发 生 混 

在 长 期 的 保存 过 程 中 ,数字 对 象 会 因 各 种 保存 管 
理 而 产生 多 种 起 源 事 件 ,需要 对 其 进行 全 面 的 研究 .分 
析 和 定义 ,并 根据 项 目的 实际 目标 和 需求 ,制定 一 个 全 
面 的 \ 个 性 化 的 起 源 管理 规划 , 既 记 录 足 够 的 信息 , 充 
分 保持 被 保存 数据 的 完整 性 、 真 实 性 和 可 理解 性 ,同时 
又 不 致 产生 过 多 的 起 源 数据 ,增加 保存 系统 维护 的 负 
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担 。 

与 起 源 的 组 织 捕获 和 存储 技术 相 比 ， pee 
化 技术 的 研究 相对 比较 缺乏 ,有 些 系统 至 今 只 提供 上 
XML M DRE LEM E 
既 不 利于 阅读 ,也 不 能 充分 展现 起 源 应 有 的 价值 ,所 以 
如 何 有 效 、 多 角度 .生动 化 ` 清 晰 化 地 呈现 起 源 ,是 长 期 
保存 中 值得 关注 的 事情 。 

同时 ,与 内 容 数据 一 样 ,起 源 数 据 应 该 被 妥善 存储 
和 保护 。 保 存 机 构 应 该 采取 措施 保护 起 源 的 安全 性 和 
真实 性 ,在 突 发 事件 如 数据 变换 .存档 和 转换 过 程 中 使 
用 防 自 改 技术 (如 数字 签名 ) 以 保护 起 源 信 息 链 的 完 
Sep 可靠 性 和 有 效 性 。 

总 地 来 说 ,起 源 对 于 数字 对 象 真实 性 判断 、 版 权 归 
属 \ 访 问 权限 管理 、 知 识 库 变迁 等 内 容 具 有 重要 作用 ， 
它 既 是 OAIS 信息 模型 的 一 部 分 ,又 是 长 期 保存 系统 实 
践 中 非常 重要 的 支撑 内 容 , 所 以 长 期 保存 系统 应 该 充 
分 地 结合 OAIS .PREMIS 和 TRAC 等 标准 ,根据 自身 的 
实际 情况 ,制定 出 一 套 完善 的 起 源 应 用 管理 方案 。 

下 一 步 ,将 尝试 在 中 国 科学 院 文献 情报 中 心 的 长 
期 包 系统 (DPS) 中 集成 起 源 的 管理 功能 ,并 通过 事件 
捕获 起 源 :GD 根据 系统 的 流程 核定 需要 捕获 的 事件 ;@) 
确定 以 PREMIS 和 PROV 结合 的 方式 记录 起 源 的 元 数 
据 方案 ;@ 设 计 起 源 的 存储 封装 策略 ,包括 存储 方式 、 
封装 格式 ,存储 位 置 等 ;四 根据 系统 的 技术 平台 选取 合 
适 的 技术 方案 加 以 实施 。 最 后 从 实践 中 验证 和 改进 本 
文 提出 的 以 事件 为 核心 的 起 源 信 息 管 理 框 架 。 
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The Application and Research of Data Provenance Technology within Long-term Data Preservation 
Wu Zhenxin Li Wenyan!'” 
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Abstract. | Purpose/significance | This paper combines the content of provenance and the features of the data pres- 
ervation, makes a comprehensive study in provenance application within long-term data preservation, and provides a refer- 
ence for information systems of data preservation to organize and manage the provenance. [ Method/ process | This paper 
analyzes the explanations of provenance of the relevant standards such as OAIS, PREMIS and TRAC , and makes a compar- 
ative study of the application in the existing long-term preservation systems. [ Result/conclusion ] The results is a prove- 
nance application framework in data preservation, which summarizes the contents of provenance, and the method to cap- 
ture, organize, storage and encapsulate provenance. 
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Design and Implementation of Academic Relation and Visualization System 
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?Institute of Scientific and Technical Information of China, Beijing 100038 
Abstract. [ Purpose/ significance ] Design and implement an academic relation and visualization systerm ItgInsight , 
to make up for the shortage of the scientific text mining and visualization research. [ Method/process | ItgInsight has been 
developed using C# and WPF for constructing and viewing academic relation. Technologies such as data cleaning by field 
mapping, relations building based on the co-occurrence matrix and association matrix, network diagram and heat map visu- 
alization, are used. [ Result/conclusion | ItgInsight can be used to conduct data cleaning, subject identification, relation- 
ship building and visual representation in Chinese or English as far as patent, paper and report. The system with inde- 
pendent intellectual property is stable. It has positive significance to improve intelligence analysis software development in 
China. 
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